Wiederholung: Voraussetzungen für IRT

Eindimmensionalität: Die Lösungswahrscheinlichkeit eines Items wird lediglich durch \(\theta_p\) beeinflusst (und die Itemparameter), wobei die Dimension von \(\theta_p\) gleich eins ist. Das Item misst also nur ein Konstrukt.

Lokal stochastische Unabhängigkeit: Nach Kontrolle für die Personenfähigkeit korrelieren die Items nicht mehr. Der einzige Grund dafür, dass die Items zusammenhängen, ist also, dass die Antwort von diesem Konstrukt beeinflusst wird. Durch die Kontrolle für die Personenfähigkeit halten wir also den Fähigkeitswert konstant (alle Personen haben die gleiche Fähigkeit).
Ein Modell mit lokaler Abhängigkeit hat wichtige Kovarianz zwischen den Items nicht entdeckt.

Übrigens

Items können mehrdimensional aber trotzdem lokal unabhängig sein, wenn alle Items die gleichen Dimensionen messen. Andersherum sind Items immer lokal unabängig, wenn sie eindimensional sind.

Das Problem

Funktionieren die Items in verschiedenen Gruppen (z.B. Geschlecht, Kultur, Fähigkeit …) auf dieselbe Art und Weise? Gibt es also echte Mittelwertsunterschiede zwischen beiden Gruppen, oder sind die Unterschiede auf besondere Interaktionen zwischen Items und Gruppen zurückzuführen?

Beispiel

Welche Unterarten von Rugby gibt es laut Text?


Differential Item Functioning

  • DIF: Item Characteristic Curves (also mind. einer der Paramter im IRT Modell) unterscheiden sich in verschiedenen Subgruppen.
  • Grund: Item ist nicht eindimensional.
  • DIF-Untersuchung ist damit auch eine Untersuchung der Testvalidität!

Mögliche Fähigkeitsunterschiede zwischen den Gruppen auf dem gemessenen Konstrukt interessieren uns hier nicht. Die rechnen wir gleich in Kapitel 26 raus.

Abbildung

Abbildung mit 2 ICR Curves?

Wie?

Reference vs. focal group
Naive Lösung: Einfach die verschiedenen Subgruppen einzeln kalibrieren und dann die ICRs anschauen.
Warum funktioniert das nicht?

Warum funktioniert das nicht?

Werte aus versch. Kalibrierungen können nicht ohne weiteres vergleichen werden, da die Skalen arbiträr festgelegt werden.
 

Wir müssen also vorher linken!

Problem

Das Problem

Invarianz-Eigenschaft von IRT: Itemparameter sind gleich über verschiedene Gruppen. Die Wahrscheinlichkeit für eine korrekte Antwort auf ein Item hängt also nur von \(\theta\) ab. Nicht von anderen Personen in der Stichprobe.

Die Lösung

Wir müssen die Werte, die wir aus diesen Kalibrierungen bekommen, irgendwie in einen Zusammenhang setzen.

Wiederholung: Kalibrierung

Die kalibrierten Itemparameter und Personenfähigkeiten gelten erst einmal nur für diese bestimmte Kombintation aus Items und Personen.

WARUM?

Wiederholung: Kalibrierung

  • Skala der Latenten Variable wird arbiträr festgelegt (meist auf einen Mittelwert von 0 und eine SD von 1)
  • Modell sonst nicht idenfiziert.
  • Itemparameter aus versch. Kalibrierungen dadurch nicht auf der selben Skala.
  • Sie können also nicht direkt miteinander verglichen werden.

Beispiel

Wenn wir eine sehr leistungsstarke Stichprobe haben, und eine sehr leistungsschwache, dann wird nach der Kalibrierung trotzdem bei beiden der Mittelwert der Latenten Variable 0 und die SD 1 sein. Mittelschwere Items werden aber in der schwachen Gruppe eher positive Schwierigkeiten haben, in der starken Gruppe eher negative.

Beispiel

Group 1: \(\theta \sim N(0,1)\)
Group 2: \(\theta \sim N(1, 1.4)\)

 

Für die Kalibrierung legen wir jetzt aber fest, dass gilt: Gruppe 1: \(\hat{\theta} \sim N(0,1)\)
Gruppe 2: \(\hat{\theta} \sim N(0,1)\)

Beispiel

Gruppe 1: \(\theta \sim N(0,1)\)
Gruppe 2: \(\theta \sim N(1, 1)\)  

Die Bedeutung des Skalenursprungs (0) unterscheidet sich, dadurch unterscheiden sich auch die Itemparameter.

Illustration

Wir nehmen an, dass die gleiche Person in Gruppe 1 und in Gruppe 2 getestet wird:

Mit der gleichen Fähigkeit würde sie in Gruppe 2 einen niedrigeren Fähigkeitswert zugewiesen bekommen, da diese Gruppe einfach besser ist als Gruppe 1.

Illustration 2

Das gleiche gilt für Items:

Das Item wird in Gruppe 2 als leichter geschätzt als in Gruppe 1, einfach weil die Lösungswahrscheinlichkeit in Gruppe 2 höher ist.

Itemschwierigkeiten in zwei nicht-äquivalenten Gruppen

Gruppe 1: \(\theta \sim N(0,1)\)
Gruppe 2: \(\theta \sim N(1, 1)\)  

Diskriminationsparameter

Gruppe 1: \(\theta \sim N(0,1)\)
Gruppe 2: \(\theta \sim N(0, 1.4)\)  

SimIRT

Übringes: es gibt natürlich auch schon R Pakete, die die Simulationsarbeit für uns übernehmen. Aus didaktischen Gründen haben wir das bisher selber gemacht, aber können uns jetzt ein bisschen Arbeit ersparen, und das ganze von dem Paket catIrt übernehmen lassen. Hier nochmal die gleiche Simulation, aber mit

library(catIrt)

group_1 <- simIrt(theta = rnorm(100000, 0, 1), params = as.matrix(items[, c("a", "b", "c")]), mod = "brm")
group_2 <- simIrt(theta = rnorm(100000, 0, 1.5), params = as.matrix(items[, c("a", "b", "c")]), mod = "brm")

## Kalibrieren der beiden Gruppen getrennt
group_1_2PL <- tam.mml.2pl(group_1$resp, irtmodel = "2PL")
group_2_2PL <- tam.mml.2pl(group_2$resp, irtmodel = "2PL")

## Extrahieren der Itemparameter
itempars_1 <- as.data.frame(apply(group_1_2PL$item_irt[, c("alpha", "beta")], 2, round, 2))
itempars_2 <- as.data.frame(apply(group_2_2PL$item_irt[, c("alpha", "beta")], 2, round, 2))
colnames(itempars_2) <- c("alpha_2", "beta_2")

Plots zeigen

Code zeigen
parameters <- cbind(itempars_1, itempars_2)

plot_group_pars(parameters, alpha, alpha_2) +
  labs(
    title = "Diskriminationsparameter für zwei Gruppen",
    caption = TeX("\\theta_1 \\sim N(0,1), \\theta_2 \\sim N(0, 1.5)")
  )

Schwierigkeit

Code zeigen
plot_group_pars(parameters, beta, beta_2) +
  labs(
    title = "Itemschwierigkeiten für zwei Gruppen",
    caption = TeX("\\theta_1 \\sim N(0,1), \\theta_2 \\sim N(0, 1.5)")
  )

Schlusfolgerung

  • Wir brauchen also einen Referenzrahmen um unsere Testergebnisse interpretieren zu können.
  • Das bedeutet auch, dass wir die Werte aus verschiedenen Kalibrierungen nicht direkt miteinander vergleichen können.
  • Lösung: Linking

Identifizierbarkeit

Linking/Equating

  • Szenario: Wir haben verschiedene Testformen, und wollen die Scores auf eine gemeinsame Skala bringen.
  • Dafür haben wir zwei Möglichkeiten:
    • Gemeinsame Items
    • Gemeinsame Personen

Abbildung z.B. mit Verteilung von theta scores, die nochmal zeigt was das Problem ist. Dann kann man bestimmte Items markieren, und die Verteilungen entsprechend dieser markierten Items verschieben.

Embretson 2000, S. 253

  • Item Parameter werden in beiden Tests geschätzt, und dann anhand der Ankeritems durch eine geeignete Transformation auf eine gemeinsame Skala gebracht.

Beispiel

  • Schulvergleichsstudien über die Jahre:
  • Itempools von Unternehmen, die Einstellungstests anbieten.

Ankeritems

Ankeritems sind gemeinsame Items, die in beiden Testformen vorhanden sind. Hauptproblem bei der Auswahl: Sie sollten in beiden Gruppen nicht unterschiedlich funktionieren, es sollte also kein Differential Item Functioning (DIF) geben.

Ankeritems

  • Kallibrierungen der Parameterschätzer aus zwei verschiedenen Testformen werden auf eine gemeinsame Skala gebracht.
  • Wir müssen also die theta (\(\theta\)) scores des einen Tests so transformieren, dass sie auf einer gemeinsamen Skala mit den Scores des anderen Tests liegen:

\[ \theta_Y = A \theta_X + B \]

Ankerpersonen

Personen bearbeiten beide Tests. Personenfähigkeit wird basierend auf einem Referenztest geschätzt, und dann fixiert und konstant gehalten, wenn andere Testformen bearbeitet werden. Die Fähigkeitswerte werden dann genutzt, um Itemparameter auf beiden Testformen zu schätzen.

Linking

\[ \theta* = x\theta+y \]

Linking

Ziel: “Linking constants” \(x\) und \(y\) findend, welche die Item parameter aus den beiden Gruppen auf der selben Skala plazieren. Deutlich machen, für welche Art Modell nutzbar! Nochmal mit dem neueren Buch rübergehen, das geht noch mehr in die Tiefe.

  • Zwei häufige Methoden:
    • mean-sigma:
      • Annahme: Gemeinsame Ankeritems, oder Zwei Gruppen haben den genau gleichen Test bearbeitet. \[ B_B^* = x\beta_b=y \]

\[ x = \frac{\sigma_A}{\sigma_B} \]

\[ y = \overline{\beta}_A - x(\overline{\beta}_B) \]

Und dann einsetzen in \[ \theta* = x\theta+y \]

etc.

mal ausprobieren!

mean-sigma

Probleme: linking constants können stark von Outliern beeinflusst werden, und von den differential standards errors of the item difficutly estimates - Robust procedures exist.

Nur die item difficulty parameters werden zur berechnung der Linking constants genutzt.

Alternative: Characteristic curve methods

Characteristic curve methods

Versuch, die Linking constants so zu berechnen, dass die test charctersitic curves so ähnlich wie möglich sind. Nutzen daher alle item parameter um die Linking constants zu finden. computationally more expensive. Empirical research zeigt keine großen Unterschide zwischen beiden Methoden? Nochmal selber recherchiereen.

Gibt es neuere methoden? Z.B. Multi-group IRT, CFA framework …?

Beispiel

Im Embretson machen sie eine kleine Simulation. Könnten wir auch machen, entweder als aufgabe oder demonstrieren. - Man könnte die Linking constants setzen, gukcen was das mit den schwierikeiten macht, und die Simulierten Werte wieder rekapitulieren.

DIF finden

Es gibt viele verschiedene Verfahren, mit denen man Items auf DIF tests kann:

  • Wald-Test etc.
  • Logistische Regression
  • Area Measuures
  • CFA-Ansätze
  • (fixieren von Parametern in beiden Subgruppen und Vergleich mit Modell, wo diese Parameter frei geschätzt werden).
  • Multigruppen-IRT
  • MIMIC model
  • Raschtrees
  • Regularisierung

Iteratives Vorgehen

Oft werden die Methoden iterativ angewandt, da beim anfänglichen Matchen der Gruppen ja auch eventuell DIF-Items für die Berechnung der Scores verwendet werden.

Eins/Zwei Methoden kurz genauer vorstellen und in der Übung bearbeiten.

Bildquellen